智能论文笔记

Guided Diffusion Model for Adversarial Purification

Jinyi Wang , Zhaoyang Lyu , Dahua Lin , Bo Dai , Hongfei Fu

分类：计算机视觉 | 人工智能

2022-05-30

随着在各种算法和框架中更广泛地应用深度神经网络（DNN），安全威胁已成为其中之一。对抗性攻击干扰基于DNN的图像分类器，其中攻击者可以在其中故意添加不可察觉的对抗性扰动，以欺骗分类器。在本文中，我们提出了一种新颖的纯化方法，称为纯化的引导扩散模型（GDMP），以帮助保护分类器免受对抗性攻击。我们方法的核心是将纯化嵌入到deno的扩散概率模型（DDPM）的扩散denoisis过程中，以便其扩散过程可以逐渐添加的高斯噪声淹没对抗性的扰动，并且可以同时删除这两种声音。指导的deNoising过程。在我们在各个数据集中进行的全面实验中，提出的GDMP被证明可将对抗攻击造成的扰动降低到浅范围，从而显着提高了分类的正确性。 GDMP将鲁棒精度提高了5％，在CIFAR10数据集对PGD攻击下获得了90.1％。此外，GDMP在具有挑战性的Imagenet数据集上达到了70.94％的鲁棒性。

translated by 谷歌翻译

Neural KEM: A Kernel Method with Deep Coefficient Prior for PET Image Reconstruction

Siqi Li , Kuang Gong , Ramsey D. Badawi , Edward J. Kim , Jinyi Qi , Guobao Wang

分类：计算机视觉

2022-01-05

低计数正电子发射断层扫描（PET）数据的图像重建是具有挑战性的。内核方法通过在迭代宠物图像重建的前向模型中结合图像先前信息来解决挑战。已经开发出并证明了内核预期的最大化（KEM）算法是有效且易于实施的。进一步改进内核方法的常见方法是添加明确的正则化，但是导致复杂的优化问题。在本文中，我们通过使用深度系数来提出内核方法的隐含正则化，其使用卷积神经网络表示宠物前进模型中的内核系数图像。为解决基于最大似然性的神经网络的重建问题，我们应用优化转移原理来推导神经KEM算法。算法的每次迭代包括两个单独的步骤：从投影数据的图像更新的KEM步骤和图像域中的深度学习步骤，用于使用神经网络更新内核系数图像。这种优化算法保证单调地增加数据可能性。计算机模拟和实际患者数据的结果表明神经KEM可以优于现有的KEM和深度图像的先前方法。

translated by 谷歌翻译

ED2: An Environment Dynamics Decomposition Framework for World Model Construction

Cong Wang , Tianpei Yang , Jianye Hao , Yan Zheng , Hongyao Tang , Fazl Barez , Jinyi Liu , Jiajie Peng , Haiyin Piao , Zhixiao Sun

分类：机器学习 | 人工智能

2021-12-06

基于模型的强化学习方法在许多任务中实现了显着的样本效率，但它们的性能通常受模型错误的存在限制。为减少模型错误，以前的作品使用单一设计的网络来符合整个环境动态，将环境动态视为黑匣子。然而，这些方法缺乏考虑动态可能包含多个子动态的环境分解性，这可以单独建模，允许我们更准确地构建世界模型。在本文中，我们提出了环境动态分解（ED2），这是一种以分解方式模拟环境的新型世界模型施工框架。 ED2包含两个关键组件：子动力学发现（SD2）和动态分解预测（D2P）。 SD2发现环境中的子动力学，然后D2P构建子动力学后的分解世界模型。 ED2可以容易地与现有的MBRL算法和经验结果表明，ED2显着降低了模型误差，并提高了各种任务上最先进的MBRL算法的性能。

translated by 谷歌翻译

Exploration in Deep Reinforcement Learning: A Comprehensive Survey

Tianpei Yang , Hongyao Tang , Chenjia Bai , Jinyi Liu , Jianye Hao , Zhaopeng Meng , Peng Liu , Zhen Wang

分类：人工智能 | 机器学习

2021-09-14

深度强化学习（DRL）和深度多机构的强化学习（MARL）在包括游戏AI，自动驾驶汽车，机器人技术等各种领域取得了巨大的成功。但是，众所周知，DRL和Deep MARL代理的样本效率低下，即使对于相对简单的问题设置，通常也需要数百万个相互作用，从而阻止了在实地场景中的广泛应用和部署。背后的一个瓶颈挑战是众所周知的探索问题，即如何有效地探索环境和收集信息丰富的经验，从而使政策学习受益于最佳研究。在稀疏的奖励，吵闹的干扰，长距离和非平稳的共同学习者的复杂环境中，这个问题变得更加具有挑战性。在本文中，我们对单格和多代理RL的现有勘探方法进行了全面的调查。我们通过确定有效探索的几个关键挑战开始调查。除了上述两个主要分支外，我们还包括其他具有不同思想和技术的著名探索方法。除了算法分析外，我们还对一组常用基准的DRL进行了全面和统一的经验比较。根据我们的算法和实证研究，我们终于总结了DRL和Deep Marl中探索的公开问题，并指出了一些未来的方向。

translated by 谷歌翻译

Fault Detection and Classification of Aerospace Sensors using a VGG16-based Deep Neural Network

Zhongzhi Li , Yunmei Zhao , Jinyi Ma , Jianliang Ai , Yiqun Dong

分类：计算机视觉 | 机器学习

2022-07-27

与传统的基于模型的故障检测和分类（FDC）方法相比，深神经网络（DNN）被证明对航空航天传感器FDC问题有效。但是，在训练中消耗的时间是DNN的过度，而FDC神经网络的解释性分析仍然令人难以置信。近年来，已经研究了一个称为基于图像缺陷的智能FDC的概念。这个概念主张将传感器测量数据堆叠到图像格式中，然后将传感器FDC问题转换为堆叠图像上的异常区域检测问题，这很可能很可能借用了机器视觉领域的最新进展。尽管在基于图像缺陷的智能FDC研究中声称有希望的结果，但由于堆叠图像的尺寸较低，使用了小的卷积核和浅DNN层，这阻碍了FDC性能。在本文中，我们首先提出了一种数据增强方法，该方法将堆叠的图像膨胀到更大的尺寸（与机器视觉领域中开发的VGG16网的通讯）。然后，通过直接对VGG16进行微调训练FDC神经网络。为了截断和压缩FDC净大小（因此其运行时间），我们在微调网上进行修剪。还采用了类激活映射（CAM）方法，以解释FDC NET的解释性分析以验证其内部操作。通过数据增强，VGG16的微调以及模型修剪，本文开发的FDC网络声称，在5个飞行条件下（运行时间26 ms），在4架飞机上，FDC精度为98.90％。 CAM结果还验证FDC Net W.R.T.它的内部操作。

translated by 谷歌翻译

BRACE: The Breakdancing Competition Dataset for Dance Motion Synthesis

Davide Moltisanti , Jinyi Wu , Bo Dai , Chen Change Loy

分类：计算机视觉

2022-07-20

音频条件的舞蹈运动合成图的生成模型音乐特征到舞蹈运动。训练模型将运动模式与音频模式相关联，通常没有明确的人体知识。这种方法取决于一些假设：强烈的音乐舞蹈相关性，受控运动数据和相对简单的姿势和运动。在所有现有的舞蹈运动合成数据集中都可以找到这些特征，并且实际上最近的方法可以取得良好的结果。我们引入了一个新的数据集，旨在挑战这些常见的假设，并编译了一组动态舞蹈序列，显示出复杂的人类姿势。我们专注于具有杂技动作和纠结姿势的脱节。我们从红牛BC One竞赛视频中获取数据。由于舞蹈的复杂性以及多个移动的相机录制设置，因此很难从这些视频中估算人类关键点。我们采用混合标签管道利用深度估计模型以及手动注释，以降低的成本获得高质量的关键点序列。我们的努力生产了支架数据集，该数据集包含3个小时30分钟的密集注释姿势。我们在支撑上测试了最新方法，在复杂序列上评估时显示了它们的局限性。我们的数据集可以很容易地促进舞蹈运动合成。有了复杂的姿势和迅速的动作，模型被迫超越学习方式与理性之间的映射，以更有效地了解身体结构和运动。

translated by 谷歌翻译

Fuse It More Deeply! A Variational Transformer with Layer-Wise Latent Variable Inference for Text Generation

Jinyi Hu , Xiaoyuan Yi , Wenhao Li , Maosong Sun , Xing Xie

分类：自然语言处理

2022-07-13

在过去的几年中，在各种文本生成任务中见证了各种自动编码器的优势。但是，由于文本的顺序性质，自动回归解码器倾向于忽略潜在变量，然后降低到简单的语言模型，称为KL消失的问题，当VAE与基于变压器的结构结合时，这将进一步恶化。为了改善这个问题，我们提出了一种新型变化变压器框架Della。德拉（Della）从较低层的层中得知一系列层的潜在变量，每个变量都从下层的层中推断出，并通过低级张量产品与隐藏状态紧密耦合。通过这种方式，Della强迫这些后部潜在变量将其与整个计算路径深入融合，从而结合了更多信息。从理论上讲，我们可以将我们的方法视为纠缠潜在变量，以避免通过层减少后验信息，从而使DELLA即使没有任何退火或阈值技巧，也可以使DELLA获得更高的非零KL值。与多个强大的基线相比，对四个无条件和三个条件生成任务的实验表明，Della可以更好地减轻KL消失并改善质量和多样性。

translated by 谷歌翻译

Augmented Imagefication: A Data-driven Fault Detection Method for Aircraft Air Data Sensors

Hang Zhao , Jinyi Ma , Zhongzhi Li , Yiqun Dong , Jianliang Ai

分类：计算机视觉 | 人工智能

2022-06-18

在本文中，提出了一种新型的数据驱动方法，称为“增强图像缺陷”，用于飞机空气数据传感器（AD）的故障检测（FD）。典范飞机空气数据传感器的FD问题，开发了基于深神经网络（DNN）的边缘设备上的在线FD方案。首先，将飞机惯性参考单元测量作为等效输入，可扩展到不同的飞机/飞行案件。收集了与6种不同的飞机/飞行条件相关的数据，以在培训/测试数据库中提供多样性（可伸缩性）。然后提出了基于DNN的飞行条件预测的增强图像缺乏。原始数据被重塑为用于卷积操作的灰度图像，并分析并指出了增强的必要性。讨论了不同种类的增强方法，即翻转，重复，瓷砖及其组合，结果表明，在图像矩阵的两个轴上的所有重复操作都会导致DNN的最佳性能。基于GRAD-CAM研究了DNN的可解释性，这提供了更好的理解并进一步巩固DNN的鲁棒性。接下来，DNN型号，具有增强图像缺陷数据的VGG-16将针对移动硬件部署进行了优化。修剪DNN后，具有高精度（略微上升0.27％）的轻质模型（比原始VGG-16小98.79％），并获得了快速速度（时间延迟减少87.54％）。并实施了基于TPE的DNN的超参数优化，并确定了超参数的最佳组合（学习速率0.001，迭代时期600和批次尺寸100的最高精度为0.987）。最后，开发了基于Edge设备Jetson Nano的在线FD部署，并实现了飞机的实时监控。我们认为，这种方法是针对解决其他类似领域的FD问题的启发性。

translated by 谷歌翻译

Self-Supervised Implicit Attention: Guided Attention by The Model Itself

Jinyi Wu , Xun Gong , Zhemin Zhang

分类：计算机视觉

2022-06-15

我们提出了自我监督的隐式注意力（SSIA），这是一种新方法，可以适应性地指导深度神经网络模型，以通过利用模型本身的特性来吸引注意力。 SSIA是一种新颖的注意机制，在推理过程中不需要任何额外的参数，计算或内存访问成本，这与现有的注意机制相反。简而言之，通过将注意力重量视为高级语义信息，我们重新考虑了现有注意机制的实现，并进一步提出了从较高网络层中生成监督信号，以指导较低的网络层以进行参数更新。我们通过使用网络本身的层次特征来构建自我监督的学习任务，从而实现了这一目标，该任务仅在培训阶段起作用。为了验证SSIA的有效性，我们在卷积神经网络模型中执行了特定的实现（称为SSIA块），并在几个图像分类数据集上验证了它。实验结果表明，SSIA块可以显着改善模型性能，即使胜过许多流行的注意方法，这些方法需要其他参数和计算成本，例如挤压和激发和卷积障碍物注意模块。我们的实施将在GitHub上获得。

translated by 谷歌翻译

Position Labels for Self-Supervised Vision Transformer

Zhemin Zhang , Xun Gong , Jinyi Wu

分类：计算机视觉

2022-06-10

位置编码对于视觉变压器（VIT）捕获输入图像的空间结构很重要。一般疗效已在VIT中得到证明。在我们的工作中，我们建议训练VIT以识别输入图像贴片的2D位置编码，这项显然简单的任务实际上产生了有意义的自我研究任务。基于对VIT位置编码的先前工作，我们提出了两个专用于2D图像的位置标签，包括绝对位置和相对位置。我们的位置标签可以轻松地插入变压器中，并结合各种当前VIT变体。它可以通过两种方式工作：1。作为Vanilla Vit（例如VIT-B和SWIN-B）的辅助培训目标，以提高模型性能。 2.结合自我监督的vit（例如，MAE），为语义特征学习提供了更强大的自我监督信号。实验表明，仅由于提出的自我监督方法，Swin-B和Vit-B分别在Mini-Imagenet上获得了1.9％（TOP-1 ACC）和5.6％（TOP-1 ACC）的改善。

translated by 谷歌翻译